异常和异常值检测是机器学习中的长期问题。在某些情况下,异常检测容易,例如当从诸如高斯的良好特征的分布中抽出数据时。但是,当数据占据高维空间时,异常检测变得更加困难。我们呈现蛤蜊(聚类学习近似歧管),是任何度量空间中的歧管映射技术。 CLAM以快速分层聚类技术开始,然后根据使用多个几何和拓扑功能所选择的重叠群集,从群集树中引导图表。使用这些图形,我们实现了Chaoda(群集分层异常和异常值检测算法),探索了图形的各种属性及其组成集群以查找异常值。 Chaoda采用了一种基于培训数据集的转移学习形式,并将这些知识应用于不同基数,维度和域的单独测试集。在24个公开可用的数据集上,我们将Chaoda(按衡量ROC AUC)与各种最先进的无监督异常检测算法进行比较。六个数据集用于培训。 Chaoda优于16个剩余的18个数据集的其他方法。 CLAM和Chaoda规模大,高维“大数据”异常检测问题,并贯穿数据集和距离函数。克拉姆和Chaoda的源代码在github上自由地提供https://github.com/uri-abd/clam。
translated by 谷歌翻译
The one-inclusion graph algorithm of Haussler, Littlestone, and Warmuth achieves an optimal in-expectation risk bound in the standard PAC classification setup. In one of the first COLT open problems, Warmuth conjectured that this prediction strategy always implies an optimal high probability bound on the risk, and hence is also an optimal PAC algorithm. We refute this conjecture in the strongest sense: for any practically interesting Vapnik-Chervonenkis class, we provide an in-expectation optimal one-inclusion graph algorithm whose high probability risk bound cannot go beyond that implied by Markov's inequality. Our construction of these poorly performing one-inclusion graph algorithms uses Varshamov-Tenengolts error correcting codes. Our negative result has several implications. First, it shows that the same poor high-probability performance is inherited by several recent prediction strategies based on generalizations of the one-inclusion graph algorithm. Second, our analysis shows yet another statistical problem that enjoys an estimator that is provably optimal in expectation via a leave-one-out argument, but fails in the high-probability regime. This discrepancy occurs despite the boundedness of the binary loss for which arguments based on concentration inequalities often provide sharp high probability risk bounds.
translated by 谷歌翻译
合理验证是指检查系统中的代理在系统中选择形成游戏理论平衡的策略的假设,该问题是检查哪种时间逻辑属性。可以将合理验证理解为模型检查多种系统系统的对应物,但是对于某些时间逻辑规范语言(例如CTL)和具有LTL规格的多项式空间,可以在多项式时间内完成经典模型检查,但合理验证却更加困难:虽然很难:合理验证的关键决策问题是2与LTL规格的Exptime-Complete,即使使用显式状态系统表示。在这种背景下,我们在本文中的贡献是三倍。首先,我们表明,可以通过将规格限制为GR(1),这可以大大降低合理验证的复杂性,GR(1)是LTL的片段,可以代表反应性系统的宽泛且实际上有用的响应属性类别。特别是,我们表明,对于许多相关设置,可以在多项式空间甚至多项式时间内完成合理验证。其次,在考虑均值付费公用事业功能给出的玩家的目标时,我们为合理验证提供了改进的复杂性结果;可以说是并发系统中最广泛使用的定量目标方法。最后,我们考虑了满足社会福利约束的计算结果的问题。为此,我们考虑了实用和平等主义的社会福利,并表明计算此类结果是Pspace-Complete或NP完整的。
translated by 谷歌翻译
阅读和驾驶等日常任务的核心是主动对象识别。目前无法合并时间来阻碍建模此类任务的尝试。人们在速度和准确性之间表现出灵活的权衡,而这种权衡是至关重要的人类技能。深层神经网络已成为预测人类对象识别峰值和神经活动的有前途的候选人。但是,建模时间维度,即速度准确性权衡(SAT),对于它们作为人类如何识别对象的有用计算模型至关重要。为此,我们在这里介绍了第一个大规模(148个观察者,4个神经网络,8个任务)数据集,该数据集是识别Imagenet图像时速度准确性折衷(SAT)。在每个人类试验中,哔哔声表示所需的反应时间,在显示图像后以固定的延迟发出声音,并且观察者的响应仅在哔哔声附近发生时才计算。在一系列块中,我们测试了许多蜂鸣延迟,即反应时间。我们观察到人类的准确性随反应时间的增加而增加,并继续将其特征与能够推理时间自适应计算的几个动态神经网络的行为进行比较。我们将FLOPS作为反应时间的模拟,我们将网络与人类在曲线拟合误差,类别相关性和曲线陡度中进行比较,并得出结论,级联的动态神经网络是对象识别任务中人类反应时间的有希望的模型。
translated by 谷歌翻译